Pengantar Pembelajaran Penguatan Mendalam (DRL)

Pembelajaran Penguatan Mendalam (DRL) menggabungkan kemampuan representasi berdimensi tinggi dari Jaringan Saraf Dalam dengan kerangka kontrol optimal dari Pembelajaran Penguatan. Berbeda dengan pembelajaran terawasi atau tak terawasi, DRL agen belajar melalui interaksi coba-coba dan kesalahan di lingkungan yang dinamis lingkungan, membuat keputusan berturut-turut keputusan berturut-turut tanpa label langsung atau eksplisit. Integrasi ini memungkinkan agen menangani masukan kompleks dan mentah (seperti data piksel) secara langsung.

1. Paradigma Pembelajaran DRL

Agen RL beroperasi dalam siklus terus-menerus: mengamati lingkungan Keadaan ($S_t$), melakukan tindakan Tindakan ($A_t$), dan menerima sinyal skalar yang mungkin jarang atau tertunda Imbalan ($R_{t+1}$). Tantangan utama adalah masalah penugasan kredit: menentukan tindakan masa lalu mana yang bertanggung jawab atas sinyal imbalan di masa depan.

2. Tujuan Optimasi

Tujuan akhir adalah menemukan strategi optimal, atau kebijakan ($\pi^*$), yaitu pemetaan dari keadaan ke tindakan, yang memaksimalkan Return Kumulatif Diskon yang Diharapkan ($G_t$). Faktor diskonto ($\gamma \in [0, 1]$) sangat penting secara matematis, mendefinisikan seberapa besar kita menghargai imbalan segera dibandingkan imbalan yang diharapkan jauh ke masa depan.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$

The Fundamental RL Cycle

An illustration of the Markov Decision Process (MDP) framework. The Agent's policy dictates the action ($A_t$) based on the current state ($S_t$), leading the Environment to transition to a new state ($S_{t+1}$) and provide a reward ($R_{t+1}$).

The Reinforcement Learning Cycle: Agent, Environment, State, Action, Reward

Question 1

How does the DRL agent receive feedback from the environment?

Explicit labels/targets

Backpropagation through time

Scalar reward signal

Labeled demonstration data

Question 2

What does the policy ($\pi$) mathematically represent?

The predicted total reward

A distribution over actions given a state

The probability of transitioning to a new state

The error between predicted and actual returns

Challenge: The Discount Factor

Analyzing the Temporal Horizon.

Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.

Step 1

How does the choice of $\gamma$ affect the policy's horizon?

Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.